【第五届RPA极客挑战赛】赛题一：自动化大语言模型语义理解能力测试

RPA全球生态

2024-08-31

【第五届RPA极客挑战赛】结束后很多未参与的伙伴留言对赛题设置很感兴趣，赛题结合当前爆火的ChatGPT、大语言模型技术热点，共设置“自动化大语言模型语义理解能力测试”、“会议摘要小助手：上传会议录制文件，自动总结摘要”、“打造可以联网的ChatGPT搜索助手”三道题目。我们将在公众号以文章形式发布详细的赛题说明，供大家参阅。

赛题1：自动化大语言模型语义理解能力测试（35分）

一、赛题背景描述

在这个赛题中，我们将聚焦于利用机器人流程自动化（RPA）技术来测试大型语言模型的语义理解能力。随着ChatGPT、文心一言、盘古等大语言模型的快速发展带来了新的AI变革。然而，尽管这些模型在处理常见任务方面表现出色，但对于复杂的语义理解仍然存在一些挑战。RPA通过模拟人类用户的行为和交互，可以自动执行各种重复性、繁琐的任务。将RPA与AI能力结合，我们可以设计出一系列有趣且具有挑战性的赛题，以测试语言模型在语义理解方面的表现。

本赛题需要利用RPA技术与大型语言模型进行交互，根据给定的数据集（json格式）对大模型进行语义理解方面的能力考量。参赛队伍需要设计合适的自动化流程，确保语言模型对复杂语义的准确理解和正确处理。

二、赛题目标说明

测试ChatGPT3.5 Turbo的大模型语义理解能力。使用给定的Json格式的测试数据集，编写合适的Prompt提示词，对ChatGPT3.5 Turbo进行测试，并最终获得反馈的结果，将测试结果写到Excel中并上传。

三、流程描述

1.手动从竞赛系统中下载测试数据集；

2.RPA读取数据库（Json格式）

3.RPA打开大模型对话平台（手动登录操作）

4.请提前确定合适的prompt(提示词)，RPA自动开始问答并记录答案和判断是否正确；

5.RPA自动将问答过程记录和最终计算的数值结果写入到Excel文件中

提示：该大模型对话平台上下文的context最大2048token，大约1个汉字2个token计算。多轮问答时需要额外处理超出上下文后，重新告知模型你的要求。请在自动化前测试好你的prompt（提示词）

三、赛题要求说明

1. 使用工具：（1）请使用给定的大模型对话平台：https://prompt.aigcopen.com 使用微信扫码登录，在对话页面下进行。

注意：与模型对话需要使用积分，该平台可免费领取积分，测试开发如需要更多积分，请联系现场大赛负责人后台添加积分。

2. 备用平台：在微信中使用ChatGPT服务，微信扫码识别点击并输入手机号加入，使用ChatGPT应用对话即可

四、计分与结果统计

每道问题计1分，大模型回答正确即得分，答错不得分。

结果文件规范（系统中可下载该示例结果文件）：

1.结果文件都写入到OpenLLMsBenchmark.xlsx文件，共有两个sheet，第一个sheet命名为ChatGPT，第二个sheet命名为ChatGPT-Result

2.将每道题的问题和模型答案以及正确选项，写入到ChatGPT结果文件中。

3.将总题目数，以及回答正确的题目数，得分数，以及正确率的百分比数据写入到ChatGPT-Result

4.将结果文件与录屏结果上传竞赛系统（手动）

五、赛题数据包下载

在公众号后台回复“数据包1”，可下载本道赛题的数据包。

- END -

报告下载

大佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

达观数据-陈运文 | 达观数据-陈文彬 | 华为-杨永根 | 华为-杨波 | IBM-孙震

IBM-常旭 | 天行智能-张尧 | 来也科技 - 褚瑞 | 实在智能-孙林君

金智维-廖万里 | 金智维-屈文浩 | 阿博茨-余宙 | 阿博茨-刘铁锋 | 英诺森-胡益、徐志宏

中关村科金-周长安 | 百炼智能-冯是聪 | 玄一科技 - 杨凯程

德勤-杨玲玲 | 德勤-周麟 | 普华永道-庞胤杰 | 安永咨询-安武 | 中兴云-刘雅琼

BV百度风投-方鑫 | 致同咨询-任子旭 | 兴业数金-梁一纲 | 毕马威-马金平

建信金融- 陈文极 | 海通证券-任荣

行业知识交流分享，结识扩展人脉圈层

公众号后台回复【RPA】

可受邀加入【RPA数字技术】交流群

继续滑动看下一个

RPA全球生态

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

【第五届RPA极客挑战赛】赛题一：自动化大语言模型语义理解能力测试

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

【第五届RPA极客挑战赛】赛题一：自动化大语言模型语义理解能力测试

您可能也对以下帖子感兴趣